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摘 要 : 分 析 学 生 在 教学 评价 系统 中 对 于 教师 的 评价 数据 有 助 于 教师 了 解 学生 对 授课 教师 的 真实 态度 ， 总 结 
JR, 改进 后 续 的 教学 方式 , 提高 教学 质量 。 但 是 进行 教学 评价 时 , 学 生 中 可 能 会 出 现 随意 评价 或 者 恶意 评价 等 问 
导致 评价 数据 中 包含 大 量 噪声 ， 造 成 反馈 数据 的 不 理想 。 因 此 ， 提 出 了 一 种 离散 泊 松 混合 模型 来 对 包含 噪声 的 学 生 
的 评价 数据 进行 建 模 ， 将 混合 模型 中 的 每 一 个 离散 泊 松 分 量 对 应 一 类 具有 相似 评价 模式 的 学 生 ， 借 由 离散 泊 松 分 布 
中 的 模型 参数 来 表示 对 应 评价 模式 中 的 评价 分 数 。 通 过 构建 对 数 似 然 函 数 来 衡量 混合 模型 和 评价 数据 的 拟 合 程度 ， 
采用 梯度 下 降 的 方法 求解 拟 合 程度 最 高 的 模型 参数 ， 找 到 学 生 对 于 教师 的 真实 评价 ， 保 证 教学 评价 系统 中 师 生 间 的 
有 效 沟通 。 大 量 实验 结果 表明 模型 能 够 快速 准确 地 从 含有 噪声 的 评价 数据 中 识别 出 具有 不 同 评价 模式 的 学 生 ， 掌 握 
学 生 对 于 教师 的 真实 评价 情况 。 
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Teaching evaluation data modeling based on discrete Poisson mixture model 


Huang Hao, Yan Qian, Gan Ting, Li Shijun 
(School of Computer Science, Wuhan University, Wuhan 430072, China) 


Abstract: Analyzing the evaluation data of students to teachers in the teaching evaluation system helps teachers understand 
the true attitudes of students to teachers, summarize teaching experience, improve subsequent teaching methods, and improve 
teaching quality. However, when evaluating teaching, random or malicious evaluations may occur among students, resulting 
in a large amount of noise in the evaluation data, which results in unsatisfactory feedback data. Therefore, this paper proposes 
a discrete Poisson mixture model to model the evaluation data of students with noise. Each discrete Poisson component in the 
mixture model corresponds to a class of students with similar evaluation modes. The model parameters in the loose distribution 
represent the evaluation scores in the corresponding evaluation mode. The log-likelihood function is constructed to measure 
the degree of fit between the mixed model and the evaluation data, and the gradient descent method is used to solve the model 
parameters with the highest degree of fit, to find the true evaluation of the students to the teacher, and to ensure the teacher- 
student relationship in the teaching evaluation system Communicate effectively. A large number of experimental results show 
that the model in this paper can quickly and accurately identify students with different evaluation modes from the evaluation 


data containing noise, and grasp the true evaluation of the students to teachers. 
Key words: teaching evaluation system; crowdsourcing ideas; Poisson mixture model; parameter estimation method 


o" mE 导致 了 恶性 循环 。 
F 由 于 收集 的 学 生 评 价 数据 通常 是 包含 噪声 的 ， 即 随机 给 

随 着 网 络 平台 的 普及 ， 学 校 组 织 学 生 通过 网 络 教学 评价 。 ”出 的 、 恶 意 评价 的 ， 没 有 直接 表达 他 们 的 真实 想法 ， 难 以 通 
系统 评价 教师 的 课堂 教学 ， 已 成 为 各 大 高 校 取代 手工 统计 方 ”过 简单 的 多 数 性 投票 策略 来 获取 学 生 对 于 教师 的 真实 评价 ， 
式 的 普遍 选择 ,学 生 评 教 作为 高 校 教学 质量 评价 的 重要 环节 ， ”需要 进一步 地 从 这 些 包含 噪声 的 数据 中 分 析出 学 生 的 真实 情 
越 来 越 多 的 人 开始 探究 如 何 借助 这 种 方式 进一步 有 效 、 科 学 。” 况 。 如 果 将 学 生 视 为 参与 众 包 的 众 包工 人 ， 通 过 收集 大 量 学 
地 管理 教学 。 教 学 评价 主要 是 学 生根 据 相 应 的 评价 指标 对 教 。，” 生 对 教师 的 反馈 情况 实现 学 生 的 广泛 参与 的 这 种 评价 行为 与 
师 在 这 段 时 间 内 的 教学 状况 进行 打分 ， 从 而 帮助 教师 总 结 教 ” 众 包 服务 相 似 ， 可 以 利用 从 众 包 任务 获取 真实 标签 的 方法 来 
学 经 验 、 改 进 教学 方法 ， 达 到 最 终 促进 教学 中 的 师 生 沟 通 、 ”处 理学 生 的 评价 数据 。 但 是 进行 众 包 数 据 处 理 时 ， 需 要 非常 
提高 教学 质量 的 目的 。 复杂 的 参数 模型 来 建 模 众 包工 人 的 贴 标 能 力 ， 采 用 类 似 EM 
然而 ， 目 前 大 多 数 高 校 所 采用 的 教学 评价 系统 中 ， 存 在 。 ”的 算法 进行 参数 更 新 求解 ， 容 易 陷入 到 局 部 最 优 ， 无 法 准确 

着 参与 性 低 及 恶意 评价 的 主要 问题 。 学 生 缺 乏 参与 评价 的 主 。 便捷 地 获取 真实 的 任务 标签 。 
动 性 ， 认 为 自己 的 评价 不 会 改变 课程 的 教授 方式 ， 即 使 许多 为 了 避免 上 述 缺 陷 ， 本 文 建议 使 用 离散 泊 松 混合 模型 对 
学 校 强制 进行 教学 评价 ， 学 生 在 进行 评价 时 抱 着 完成 任务 的 。 含有 噪声 的 学 生 评 价 数 据 进行 建 模 ， 将 具有 相似 评价 行为 模 
心态 对 所 有 老师 随意 打分 或 故意 给 老师 打出 低 分 的 情况 也 常 。 型 的 学 生 对 应 于 一 个 离散 泊 松 模型 ， 使 用 模型 中 的 参数 来 表 
常 能 够 看 到 。 如 此 ， 影 响 了 教师 授课 的 积极 性 ， 进 而 造成 了 ” 示 学 生 的 具体 评价 分 数 ， 再 构建 最 大 似 然 函 数 来 评估 模型 和 
教学 效果 的 停滞 不 前 , 同时 学 生 认为 教学 评价 没有 实际 作用 ， ”评价 数据 的 拟 合 程度 ， 通 过 梯度 下 降 的 方法 找到 使 得 拟 合 程 
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录用 定稿 黄 浩 ， 等 : 基于 离散 泊 松 混合 模型 的 教学 评价 数据 建 模 第 39 卷 第 9 期 
度 最 高 时 的 模型 参数 , 从 而 识别 出 具有 不 同 评价 模式 的 学 生 ， 引起 了 对 多 个 不 可 靠 来 源 建 模 数 据 的 研究 课题 的 关注 。 

确定 学 生 对 于 教师 的 真实 评价 情况 。 大 量 实验 表明 ， 本 文 模 对 于 众 包 中 的 标签 任务 ， 最 常见 的 目标 是 标签 预测 ， 即 

型 能 够 快速 准确 地 从 含有 噪声 的 评价 数据 中 识别 出 不 同类 别 ”获取 实例 的 可 靠 标签 。 为 此 ， 主 流 方 法 假设 每 个 实例 都 存在 

打分 的 学 生 ， 同 时 掌握 学 生 对 教师 教学 工作 的 准确 反馈 。 真实 结果 标记 , 并 尝试 根据 标记 者 给 出 的 标签 预测 真实 标签 。 

1 ”相关 工作 Karger 等 人 “提出 了 一 种 算法 ， 该 算法 在 实例 和 标记 者 之 间 

迭代 地 传递 消息 ;Li 等 人 09 通 过 引入 标记 者 的 先 验 知识 并 

教学 评估 主要 是 收集 学 生 对 于 所 上 课程 的 评价 来 分 析 学 ”使 用 图 模型 的 变型 方法 来 推断 相应 的 生成 模型 的 方式 推广 该 


生 对 于 课程 的 真实 态度 ， 涉 及 的 相关 研究 主要 是 对 于 评价 数 算法。Whitehill 等 人 05 提 出 了 不 同 标记 着 具有 不 同 的 能 力 以 
据 的 收集 和 处 理 。 及 实例 的 争议 性 问题 ， 这 些 都 是 通过 概率 模型 与 真实 标签 一 
当前 的 评价 数据 收集 工作 的 主要 途径 是 网 络 调查 服务 ， 起 推断 出 来 的 。 此 外 ， 一 些 新 的 技术 ， 例 如 噪声 校正 5 和 不 
但 是 学 生 的 评价 会 由 于 受到 调查 疲劳 或 者 学 生 对 取得 课程 成 ” 平衡 学 习 t17 被 用 来 提高 标签 的 质量 ,尤其 是 在 实例 中 带 有 少 
绩 的 满意 程度 的 影响 ， 导 致 收集 的 数据 是 低 回 复 或 者 低 质量 。 量 噪 声 标签 的 情况 下 。 
的 。 因 此 当前 有 些 教学 评估 研究 集中 于 获取 优质 的 评价 数据 ， 当 实例 可 以 在 向 量 空间 中 被 表示 时 ， 一 个 密切 相关 的 主 
通过 利用 人 工 智 能 技术 实现 虚拟 的 会 话 代理 服务 由 与 学 生 进 ” 题 是 从 标签 中 学 习 分 类 器 。 可 以 通过 首先 使 用 上 述 标签 预测 
行 个 人 访谈 ， 产 生 更 加 高 质量 的 评价 数据 。 还 有 一 些 研究 人 ”技术 推断 真实 标签 ， 然 后 通过 传统 分 类 方法 学 习 分 类 器 来 轻 
员 通 过 额外 的 数据 平台 获取 教师 的 相关 数据 叶 作 为 评价 数 。” 松 完 成 此 任务 。 更 复杂 的 方法 包括 直接 从 标记 者 给 出 的 标签 
据 的 补充 来 实现 更 加 完整 的 教学 评估 。 中 学 习 ， 同 时 推断 隐藏 的 标记 者 能 力 089， 将 标记 者 看 做 与 最 
对 于 开放 性 问题 的 文本 评价 数据 的 处 理 主要 通过 相应 算 。 终 分 类 器 有 关 的 个 人 分 类 器 09， 并 将 标记 者 的 能 力 建 模 为 实 
法 对 学 生 回复 文本 进行 主题 检测 ,或 将 其 分 类 为 类 别 或 情绪 。 ” 例 空间 的 函数 ， 并 与 最 终 分 类 器 一 起 推断 参数 。 这 些 工作 以 
许多 研究 人 员 利用 LDA 主题 模型 从 学 生 书 面 反 馈 中 提取 主 。 不 同 的 方式 对 标记 者 的 能 力 进行 了 建 模 ， 但 是 当 他 们 将 实例 
HAS, 与 聚 类 模型 相 比 , LDA 模型 可 以 为 评论 找到 更 多 相关 ”空间 看 做 一 个 整体 时 ,并 没有 明确 地 涉及 实例 的 争议 性 问题 。 
主题 ， 再 基于 相应 的 分 类 技术 ， 将 学 生 评论 分 类 为 正面 或 负 ”这 种 工作 的 一 个 缺点 是 ， 对 于 许多 现实 世界 中 的 任务 而 言 ， 
看 评论 ， 从 而 更 好 地 获取 学 生 的 情绪 态度 。 也 有 研究 人 员 直 ”实例 的 向 量 形式 并 不 总 是 很 容易 获得 的 。 
妆 利 用 自然 语言 处 理 的 相关 技术 对 于 学 生 的 评论 文本 进行 分 尽管 大 多 数 现 有 的 工作 旨 在 针对 每 个 实例 预测 一 个 可 靠 
析 区 1， 捕获 有 意义 的 情绪 信息 ,为 了 避免 收集 的 评论 回复 中 ”的 标签 P9, 但 仍 有 一 些 人 尝试 从 其 他 方面 解决 问题 。 Wang 和 
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存在 异常 信息 对 分 析 结 果 准 确 性 的 影响 ， 一 些 评 估 方 法 也 使 《 Zhou 提出 了 一 个 通用 的 理论 框架 来 帮助 从 有 高 准确 性 的 
用 了 基于 神经 网 络 的 异常 检测 算法 外 来 提升 算法 的 效果 。 高 质量 标记 者 中 识别 (或 消除 ) 低 质量 的 标签 。Welinder 55 AP?) 
对 于 一 些 客观 问题 的 评分 数据 的 处 理 与 众 包 任务 相似 ， 出 了 “思想 学 校 ” 的 概念 ， 该 概念 允许 标记 者 标记 和 提取 不 
是 本 文 重点 研究 的 内 容 ， 下 面 将 回顾 众 包 模式 研究 的 相关 ” 同 的 观点 组 ，Tian 和 ZhuP3 通 过 聚 类 标记 者 的 标记 结果 估计 
工作 ， 对 众 包 的 出 现 及 现 有 研究 的 不 足 进行 介绍 。 了 标记 者 的 能 力 和 实例 的 争议 性 ， 从 而 扩展 了 这 个 概念 。 
众 包 并 不 是 一 个 新 现象 ， 然 而 ， 近 年 来 ， 互 联网 企业 商 。 ”Ertekin 等 人 [2 研究 了 仅 通 过 查询 一 部 分 标记 者 来 估计 标记 


业 模 式 的 巨大 成 功 ， 又 引起 了 大 家 对 众 包 的 关注 。 众 包 是 一 者 的 主要 意见 的 近似 人 群 问题 。 
种 通过 互联 网 外 包 和 利用 分 布 式 人 工 计算 能 力 来 解决 特定 功 由 于 众 包 带 来 的 巨大 机 遇 ， 许 多 的 研究 人 员 开发 了 大 量 
能 集 的 方法 名， 人 类 主动 或 被 动 地 参与 计算 过 程 ， 尤 其 是 对 “技术 来 处 理 众 包 学 习 中 的 不 精确 性 、 随 机 性 和 不 确定 性 问题 
于 人 类 本 质 上 比 计算 机 更 容易 完成 的 任务 Hol。 众 包 主要 有 两 ”pa。 但 是 ， 大 多 数 现 有 工作 都 仅仅 涵盖 了 某 些 方面 。 相 反 ， 
大 发 展 模式 ， 即 整合 型 众 包 和 选择 型 众 包 H0。 整 合 型 众 包 是 ”本 文 的 模型 预测 标记 者 本 身 的 数据 生成 而 不 是 某 些 方面 ， 并 
指 每 一 个 单独 的 个 体 所 带 来 信息 的 作用 是 微乎其微 的 ， 然 而 ”是 其 功能 足以 包含 标记 者 的 行为 模式 和 不 同意 见 ， 同 时 保持 
众多 个 体 信息 整合 的 结果 可 以 带 来 巨大 的 价值 。 选 择 型 众 包 ”模型 本 身 的 简单 灵活 。 
即 在 众多 解决 方案 中 只 存在 一 个 最 优 的 满足 要 求 会 被 采纳 ， H 
而 其 他 的 会 被 淘汰 。 2 ”相关 概念 
尽管 众 包 的 概念 起 源 于 商业 ,但 是 其 应 用 已 超越 了 商业 ， 21 混合 模型 

被 广泛 地 应 用 于 各 个 其 他 的 领域 。 在 计算 机 方面 ， 许 多 学 者 混合 分 布 模型 的 出 现 解决 了 用 单一 模型 来 研究 问题 的 不 
使 用 众 包 来 支持 他 们 在 数据 采集 、 数 据 清洗 、 质 量 评估 等 方 。 足 ， 它 的 本 质 就 是 融合 几 个 单 分 布 模型 ， 来 使 得 模型 更 加 复 
的 工作 4， 还 有 交通 领域 所 提出 的 众 包 交 通 检测 、 众 包 配 。 “ 杂 ， 从 而 产生 更 复杂 的 样本 ， 以 此 解决 单一 模型 无 法 产生 的 
送 等 概念 ， 还 有 许多 其 他 如 图 书 情报 领域 等 方面 。 维 基 百 科 “样本 的 情况 。 假 设 随机 变量 -Gx) 来 自由 M AR os 
是 众 包 应 用 中 成 功 的 案例 ， 开 创 了 一 种 人 人 参与 知识 创造 和 分别 以 比例 太太 泥 合 而 成 的 分 布 C, FEIO 的 密度 函 
积累 的 运作 模式 。 然 而 ， 众 包 模 式 中 也 存在 着 一 些 风险 ， 其 。” 数 可 以 表示 为 
中 包括 较 差 的 任务 质量 、 不 诚信 的 参与 者 以 及 众 包 过 程 中 因 Pe E T 

参与 者 数量 多 而 造成 的 不 可 控 性 等 。 因 此 ， 未 来 的 研究 中 也 HiH Eiaeai, CIDRO ZH BE REOS RET 4 e 的 密 
会 关注 到 众 包 的 风险 管理 。 本 文中 ， 也 是 就 众 包 在 教学 评价 ”函数 和 参数 ，4-(04.…4),6-(0..0) 。 称 随机 变量 x 服从 混 
中 存在 的 不 足 所 提出 的 解决 方案 。 EA Guo s zio Qusts E m AANE EE 
在 教学 评价 系统 中 ， 通 过 众 包 服务 的 思想 收集 学 生 对 教 。 数 ， 可 以 看 成 是 选 定 第 m 个 模型 后 ， 该 模型 产生 x 的 概率 ; 
师 教学 工作 打分 的 标签 结果 ， 分 析 标签 结果 中 反映 的 学 生 认 aa 是 第 加 个 分 模型 的 权重 ,可 看 做 第 m 个 分 模型 和 
同 度 来 对 教师 的 教学 进行 反馈 。 通 过 众 包 服务 收集 标签 已 被 。” 先 验 概率 ， 调 整 权重 ， 将 极 大 地 影响 混合 模型 的 概率 密度 函 
证 明 在 许多 应 用 中 是 有 效 的 ， 例 如 自然 语言 处 理 和 医疗 数据 。” 数 曲线 ， 因 此 通过 调整 权重 ， 混 合 模型 便 可 以 拟 合 更 复杂 更 
处 理 。 收 集 到 的 标签 通常 是 有 重复 的 ， 即 不 同 的 标记 者 为 同 多 变 的 样本 。 
一 个 实例 提供 了 多 个 可 能 相互 矛盾 的 标记 结果 。 这 种 重复 标 混合 模型 是 一 个 灵活 且 强 有 力 的 概率 建 模 工具 ， 在 理论 
签 的 方案 在 标签 成 本 与 数据 质量 之 间 取得 了 良好 的 平衡 ， 和 实践 中 得 到 了 极为 广泛 的 应 用 ， 因 为 它 具 有 以 下 优势 : 1) 


TL 
4 
igi 


ES np Wd 


cr 
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混合 模型 提供 了 用 简单 的 结构 模拟 复杂 分 布 的 一 个 有 效 的 模 ”假设 离散 泊 松 混合 模型 可 以 描述 为 

型 。 比 如 ， 正 态 分 布 是 现实 生活 中 最 常见 、 最 重要 的 分 布 ， ee el 

姑 此 ， 应 用 也 最 为 广泛 ， 许 多 随机 现象 当 样 本 量 足够 大 时 都 Rn i) 

uU HESS gis, 理论 可 证 明 , 利用 混合 正 态 分 布 (也 称 Rr, noinen, nm Qus 是 指 第 个 泊 松 成 分 的 泊 松 参 


为 混合 


足够 


LT 
mi 


高 斯 分 布 ) 可 以 逼近 任何 一 个 光滑 分 布 , 即 只 要 项 数 M. 


Hb aziana), < 是 第 上 个 ; 松 成 分 的 系数 (或 权重 )，s(w) 


大 ， 它 们 之 间 的 权重 设 定 地 足够 合理 ， 混 合 分 布 模型 可 


以 
中 的 
M=1 
M>l 


于 描述 复杂 现象 。 因 此 ， 


混合 模型 有 助 于 解决 实际 生活 
许多 复杂 问题 。2) 混 合 模型 所 提供 的 模拟 较为 自然 。 当 
时 ， 模 型 为 单一 分 布 ， 则 说 明 数 据 具 有 相同 的 性 质 ， 当 
时 ， 则 说 明 数 据 为 来 自 不 同 分 布 的 混合 数据 ， 具 有 不 同 


是 离散 泊 松 分 布 的 归 一 化 因子 ， 定 义 如 下 
£22, 


在 该 模型 中 ， 每 个 学 生 s 的 打分 结果 被 看 做 是 
分 生成 的 。 如 果 一 群 学 生 的 行为 相似 (例如 ， 


泊 松 成 
这 些 学 生 都 不 认 


的 性 质 ， 因 此 ， 在 聚 类 分 析 、 判 别 分 析 等 领域 中 都 有 着 广泛 真 打分 随机 地 给 出 打分 结果 ， 学 生 故 意 进行 恶意 评分 扰乱 结 
的 应 用 。 果 等 )， 他 们 的 打分 结果 往往 由 相同 的 泊 松 成 分 生成 。 此 外 ， 
2.2 [adm 如 果 该 群体 的 学 生 占 有 很 大 比例 ， 则 他 们 相应 的 泊 松 成 分 的 
在 混合 分 布 模型 中 ， 存 在 着 未 知 的 数据 ， 称 为 隐 变 量 。 系数 a 将 大 于 其 他 的 泊 松 成 分 系数 。 同 时 本 文 不 假设 影响 因 
可 以 设想 观测 到 的 随机 变量 x=%,…, 是 这 样 产生 的 : 首 素 如 何 共同 造成 打分 集合 了 的 不 确定 性 和 错误 ， 直 接 模拟 了 
JC KOREA (m=1,.. M) 选择 第 m 个 分 布 6,， 然后 依 这 个 成 分 的 生成 过 程 , 并 将 影响 因素 带 来 的 影响 融入 到 泊 松 参数 中 。 
的 概率 分 布 Sn l On) 生成 观测 数据 x, m (m Ls N) LN 个 观测 数 3.3 ”模型 参数 估计 
据 中 可 能 有 多 个 来 自 于 同一 个 成 分 。 这 时 ， 观 测 数据 _ TN 
xao 是 已 知 的 ,而 反映 观测 数据 总 来 自 于 总 体 分 布 的 哪 0 
一 个 成 分 是 未 知 的 ， 即 隐 变 量 ， 用 yag: 合 模型 参数 4 和 ec 的 似 然 函数 为 
第 n 则 变量 来 自 第 mm 个 成 SES IN ES 
ix -aa TR sraso- Es) 
其 中 ， n2L..N;m-l..M, 其 对 数 似 然 函 数 为 
3 ”模型 框架 M is E iX girar j 
在 教学 评价 系统 中 ,学 生 评 教 是 最 直接 真实 和 可 靠 的 ， 需要 最 大 化 上 述 对 数 似 然 函 数 ， 得 到 最 优 的 离散 泊 松 混 
寻 为 学 生 是 教师 教学 效果 的 直接 体现 者 。 学 生 评 价 教 师 的 教 合 模型 参数 入 和 w ， 即 
学 情况 ， 其 打分 者 是 学 生 ， 打 分 对 象 是 教师 的 教学 工作 ， 通 Ap = argmax, , In(p(Y | pa) 
过 教学 评价 系统 ， 共 同 促 进 教学 工作 的 实施 与 改进 。 在 接 下 将 上 述 的 对 数 似 然 函数 分 别 对 4 和 < 的 每 个 分 量 求 偏 导 ， 
来 的 介绍 中 ， 首 先 对 问题 进行 描述 ， 然 后 介绍 用 来 概率 拟 合 "ue 
的 离散 泊 松 混合 模型 并 对 模型 进行 解释 ， 最 后 提出 参数 估计 DS run) 
方法 以 及 根据 参数 进行 教师 教学 质量 分 析 。 a ‘5 (e TT. 
3.1 问题 页 描述 二 
假设 有 S 个 学 生 为 NN 个 教师 进行 教学 工作 评分 , 每 个 学 ug yate g Qu) - pg (us) 
生 的 评分 取 值 于 集合 {12,3,4,5,6,7,8,9,10} ， 分 值 越 高 代表 对 woe ne Testen ys!e? (Au) 
于 教学 工作 的 满意 程度 越 高 。 所 有 学 生 的 打分 使 用 集合 Y («17.8 
7={0.%) 表示 ,其 中 ww 61,2,3.:4,5,6,7,8,9,101 表示 第 seb.…5} 个 i yy lg (Hw) 
学 生 对 第 Ee 0s NT 个 教师 的 评价 分 数 。 教 学 评估 的 问题 是 根 其 中 e Qu) 是 函数 g(x) 关于 其 自 变 量 的 导 函 数 ， 定 义 如 
据 给 定 的 打分 集合 了 找到 不 同类 别 打分 模式 的 学 生 以 及 对 于 gius A a 
每 个 教师 教学 工作 的 真实 评价 。 ME 
为 了 生成 一 个 简单 但 更 灵活 和 更 实用 的 模型 ， 试 图 直接 利用 梯度 下 降 法 , 选取 4 和 的 初 值 丸和 wo， 再 利用 上 
理解 和 模拟 打分 结果 集合 工 的 生成 过 程 。 这 是 因为 教师 具有 述 的 偏 导 ， 按 照 如 下 方法 更 新 和 和 w: 的 值得 到 A23 和 er， 
丰富 的 教学 经 验 ， 对 于 所 教 课程 会 具有 相对 稳定 的 课程 知识 重复 迭代 直到 收敛， 
输出 和 课堂 教学 表现 ， 所 以 学 生 的 评价 对 象 具有 相对 固定 的 ta) 
教学 模式 ， 虽 然 不 同类 别 的 学 生 可 能 这 种 教学 模式 有 不 同 的 Hu 
ZIEM (Ede e] DE RU AET EE Pn AE IL CE EM aaao POCI) 
就 可 以 利用 生成 式 的 机 器 学 习 模 型 来 找到 这 种 教学 模式 对 不 
同类 别 学 生产 生 的 效果 评价 。 为 此 ， 将 一 个 学 生 视 为 一 个 单 其 中 是 第 上 步 的 更 新 步 长 ， 为 了 使 欠 代 终止 ， 本 文 要 求 & 


Us 


率 分 布 Due 
x Duval 来 自 这 个 分 布 。 这 样 ， 


对 于 每 一 个 学 生 s 模拟 他 对 所 有 任务 打分 结果 标签 的 概 
Yu) ， 将 分 布 表 示 为 p(y19) 并 假设 每 个 
需要 做 的 就 是 为 p(y19) 选 


择 合适 的 模型 形式 ， 并 根据 了 中 观察 到 的 标签 推导 出 相应 的 
模型 参数 0。 
3.2 ”离散 泊 松 混合 模型 

本 文选 择 N 维 离散 泊 松 混合 模型 来 拟 合 变量 y 的 概率 分 
布 。 其 原因 有 两 个 : 1) 每 个 打分 结果 标签 的 值 受 离散 泊 松 分 
布 的 影响 。2) 变 量 y 是 W 维 的 ， 因 为 它 反映 了 给 定 个 打分 
任务 上 每 个 学 生 的 打分 结果 。 在 不 失 一 般 性 的 情况 下 ， 本 文 


满足 如 下 要 求 ， 


lim &' =0y pb 三 的 


tzl 


本 文中 取 0 = 。 


泊 松 成 分 分 析 

在 3.3 节 中 ， 本 文 利用 观测 到 的 部 分 学 生 打分 情况 ， 对 
3.2 节 中 提出 的 离散 泊 松 混合 模型 的 参数 进行 估计 。 对 于 任意 
一 位 学 生 s, 其 打分 为 >， 该 学 生 的 打分 与 离散 泊 松 混合 模型 
中 第 磊 个 成 分 的 关联 度 可 以 由 下 面 似 然 函数 估计 : 


3.4 
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vo IJ) 根据 模拟 生成 数据 时 的 学 生 类 别 计算 每 个 学 生 对 于 占 

snas «TT. o) 比 最 大 的 泊 松 分 布 分 量 的 隶属 度 ， 统 计 每 一 个 类 别 学 生 的 隶 

pi er 属 度 均 值 ， 以 正常 学 生 类 别 为 例 计算 隶属 度 均 值 的 方式 为 
P 'yslg (Hmi 


3.5 教师 教学 质量 分 析 


得 到 教学 评分 的 离散 泊 松 混合 模型 参数 估计 后 ， 可 根据 
模型 对 各 教学 任务 进行 教学 质量 分 析 。 现 考虑 第 i 个 教学 任 其 中 roD 表示 学 生 s 对 于 最 大 泊 松 分 布 分 量 的 隶属 度 ; 
务 的 得 分 ， 可 估计 rO. =m ua) 如 下 区) 是 一 个 指示 函数 ， 当 括号 内 的 条 件 成 立时 取 值 为 1， 和 否则 
p(y=m|p,0) 取 值 为 0。 
pe 2) 根 据 计算 得 到 的 泊 松 分 布 参 数 来 获取 教师 的 分 数 标 签 ， 
与 给 定 的 真实 标签 的 差异 。 假 设 评分 数据 中 包含 N 名 教师 ， 
2Y Yarn L^" -Sayr FANAU i WREKEN yis 对 应 预测 的 教师 分 数 标签 为 pi， 
Lieb) zl 计算 标签 的 差异 得 分 为 
= KE d 
[meer y;!8 (4y) gone O, -p)«1)! 


s 
> 7r(y ,KJ)xT(s is normal) 


m 
2. I(s is normal) 


membership, = 


不 包含 w 剩 下 的 N-1 个 wj 求 和 


RL 教学 评估 问卷 表 0 
t3 Vlg (Hu) sa y!8 (Ha) yl!g (Mw) Tab. 1 Teaching assessment questionnaire 
不 包含 % 秋 下 的 N-1 个 yj/ 求 和 课程 时 间 2020-2021 学 年 第 一 学 期 
-> 课 头 号 20201021082 
课程 名 称 科技 写作 
其 中 忆 是 Orey) AMEE 之 后 的 N-1 个 教学 任务 的 得 分 ， 课程 号 3350520011037 
me{1,.…10}。 可 以 得 到 第 i 个 教学 任务 的 得 分 估计 如 下 按照 概 授课 教师 张 三 
率 最 大 对 应 的 得 分 m 作为 该 教学 任务 的 得 分 或 者 取 期 望 评 教 分 数 9 
Xj c arg max p(y,=m|p,0) 4.2 结果 评估 
4.2.1 学 生 分 类 
4 为 了 验证 本 文 模型 对 具有 不 同行 为 模式 的 学 生 进行 分 类 
本 节 首 先 介 绍 实验 用 到 的 数据 集 和 评价 指标 ， 然 后 在 数 ”的 能 力 ， 本 文 首先 给 与 每 个 教师 一 个 随机 生成 的 分 数 标签 ， 
据 集 上 验证 本 文 的 模型 在 以 下 两 个 方面 是 有 效 的 ， 即 1) 它 可 ”然后 根据 该 标签 生成 模拟 打分 数据 ， 在 测试 评 评分 数据 中 除 
以 按 学 生 的 行为 模式 对 他 们 进行 分 类 ，2) 它 可 以 准确 地 预测 。 了 正常 评分 ， 还 包含 随机 评分 、 恶 意 评分 或 者 随机 和 恶意 评 
真实 标签 。 分 都 存在 这 三 种 情况 下 ， 不 同类 别 打 分 学 生 在 主要 离散 泊 松 
4.1 实验 设置 成 分 中 的 隶属 度 的 平均 期 望 。 假 设 评分 数据 中 正常 评分 学 生 
在 进行 教学 评估 时 ， 每 个 学 生 收 到 的 教学 评估 调查 问卷 。 所 占 比 例 为 a(a 取 值 从 0.6 到 0.8 之 间 变 化 )， 当 剩余 评分 学 
包含 的 主要 内 容 如 下 表 1 所 示 ， 包 含 所 上 课程 的 时 间 、 课 头 。” 生 只 有 随机 评分 或 者 恶意 评分 时 ， 对 应 随机 或 者 恶意 评分 学 
号 、 课 程 名 称 、 课 程 号 、 授 课 教 师 、 评 教 分 数 等 内 容 ， 学 生 ” 生 所 占 比例 为 1-a， 当 剩余 评分 学 生 包 含 随机 评分 和 恶意 评 
根据 在 上 课时 的 课程 体验 对 该 课程 进行 评分 ， 评 分 取 值 可 从 ”分 时 ， 对 应 随机 评分 和 恶意 评分 所 占 比 例 均 为 (1-c)/2。 为 确 
1~10 分 进行 选择 。 本文 实验 使 用 的 评分 数据 是 由 100 名 学 生 ” 保 实验 的 可 信和 度 ， 模 拟 生成 多 组 实验 数据 ， 记 录 每 次 执行 的 
对 50 名 教师 模拟 打分 产生 ， 首 先 给 每 个 教师 设 定 一 个 真实 FHWA, 并 报告 多 次 运行 结果 的 均值 和 方差 (通过 结果 图 中 
的 评分 标签 ， 然 后 将 学 生 分 为 三 类 进行 打分 : 正常 打分 的 学 ”的 阴影 区 域 标识 )。 
生 是 根据 给 定 的 教师 分 数 标签 进行 上 下 浮动 打分 ， 随 机 打分 图 1 展示 了 当 评 分 数据 包含 不 同类 别 打分 学 生 时 ， 各 类 
的 学 生 在 0-10 之 间 随 机 打分 ， 恶 意 打分 的 学 生 在 0~5 分 2 学 生 在 主要 离散 泊 松 成 分 中 的 隶属 度 结果 。 从 中 可 以 观察 到 , 主要 


间 恶 意 打 分 。 


实验 评价 包含 两 个 指标 : 


一 外 一 正常 评分 —— 恶意 评分 


打分 和 恶意 打分 的 学 生 ， 这 表 昌 


离散 泊 松 成 分 中 进行 正常 打分 的 学 生 的 平均 隶属 度 显著 高 于 随机 
模型 对 这 些 学 生 进行 了 准确 分 类 。 


一 “一 正常 评分 一 9 一 随机 评分 一 + 一 恶意 评分 


0.6 0.65 


4.2.2 标签 预测 


为 了 验证 本 文 模型 能 够 从 评分 数据 中 心 分 析出 学 生 对 于 


ERITA SE 
(8 A IET. MINTI 


07 
正常 打分 占 比 


Fig. 1 


(b) 包 含 正 常 、 恶 意 评 分 
图 1 评分 数据 包含 不 同类 别 打分 学 生 时 的 隶属 度 


The grading data contains the degree of membership when scoring students in different categories 
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(0) 包 含 正 常 、 随 机 和 恶意 评 


分 


签 ， 然 后 根据 该 标签 生成 模拟 打分 数据 ， 在 测试 评分 数据 中 


教师 的 真实 评价 ， 


除了 


首先 给 与 每 个 教师 一 个 随机 生成 的 分 数 标 


评分 都 存在 这 三 种 情况 下， 本文 模型 找 至 


E 常 评分 ， 还 包含 随机 评分 、 恶 意 评分 或 者 随机 和 恶意 
1 的 教师 评价 分 数 和 


录用 定稿 * GE, 等 


真实 分 数 标签 的 差异 ， 同 时 也 报告 了 采用 多 数 投票 策略 和 
Raykar 等 人 提出 的 标签 预测 算法 023 得 到 的 教师 评价 分 数 包 
真实 分 数 标 签 之 间 的 差异 作为 对 比 。 假 设 评分 数据 中 正常 评 
分 学 生 所 占 比例 为 a(a WEA 0.6 到 0.8 之 间 变 化 )， 当 剩余 
评分 学 生 只 有 随机 评分 或 者 恶意 评分 时 ， 对 应 随机 或 者 恶意 
评分 学 生 所 占 比例 为 1-x， 当 剩余 评分 学 生 包含 随机 评分 和 
恶意 评分 时 , 对 应 随机 评分 和 恶意 评分 所 占 比例 均 为 (1-a)/2。 


T 


为 确保 实验 的 可 信和 度 ， 本 文 模拟 生成 多 组 实验 数据 ， 记 录 每 


—9— BUBEUURE 一 各 一 Raykar 一 + 一 多 数 投票 


: 基于 离散 泊 松 混合 


一 9 一 高 甬 泊 松 混 襄 一 和 一 Raykar 一 + 一 多 数 投票 
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次 执行 的 平均 期 望 , 并 报告 多 次 运行 结果 的 均值 和 方差 (通过 


结果 图 中 的 阴影 区 域 标识 )。 
图 2 展示 了 当 评 分 数据 包含 不 同类 别 打 分 学 生 时 ， 找 到 
的 教师 评价 分 数 和 真实 分 数 标签 之 间 的 差异 得 分 ， 可 以 看 出 
本 文 模型 找到 的 教师 评价 分 数 与 两 个 对 比 策略 相 比 具有 更 高 
的 准确 度 ， 背 后 的 原因 是 在 本 文 的 模型 中 ， 随 机 打分 的 学 生 

或 恶意 打分 的 学 生 被 分 配 到 了 非 主要 的 离散 泊 松 成 分 ， 留 下 
了 进行 真实 打分 的 学 生 在 主要 的 离散 泊 松 成 分 中 。 


R 


H 
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07 
正常 打分 占 比 


(a) 包 含 正常 、 随 机 评分 (b) 包 含 正 常 、 
图 2 ”评分 数据 包含 不 同类 别 打分 学 


恶意 评分 


(c) 包 含 正常 、 随 机 和 恶意 评分 


生 时 的 得 分 


Fig.2 The scoring data contains the scores of students in different categories 


5 ”结束 语 


本 文 提出 了 一 种 离散 泊 松 混合 模型 来 模拟 学 生 对 于 教师 
教学 工作 的 打分 结果 ， 并 提出 了 一 种 梯度 下 降 的 方法 用 于 模 
型 的 参数 估计 。 该 模型 直接 模拟 打分 结果 的 生成 过 程 ， 无 须 
在 学 生 打 分 能 力 和 实例 争议 性 等 影响 因素 上 进行 额外 的 假设 
或 推断 。 在 实验 结果 上 证 明了 本 文 模型 在 标签 预测 和 对 不 同 
行为 模式 的 学 生 进 行 分 类 方面 的 有 效 性 。 同 以 前 的 教学 评价 
结果 评估 相 比 ， 本 文 模型 具有 更 高 的 容错 性 ， 即 使 存在 随机 
打分 、 恶 意 打 分 学 生 ， 也 能 够 得 到 可 靠 的 评估 结果 ， 对 教师 
的 教学 工作 有 一 个 准确 的 反馈 ， 反 映 教 学 中 的 真实 情况 。 
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